Contiene un database delle citazioni degli articoli pubblicati su arxiv a proposito di fisica delle alte energie.
Sono presenti due tabelle:
Passi dell'esercitazione:
domande possibili da rispondere:
Per i più audaci: esiste la rete di citazioni dei paper teorici
che contiene anche i metadati sugli articoli, inclusi i nomi degli autori.
Provate a fare il parsing del file degli autori ed estrarre il numero di autori per paper, correlandolo con il successo del paper in questione!
http://snap.stanford.edu/data/cit-HepPh.txt.gz
http://snap.stanford.edu/data/cit-HepTh.txt.gz
http://snap.stanford.edu/data/cit-HepTh-dates.txt.gz
%cd esercitazione
import os
os.getcwd()
vediamo scaricare ed estrarre i file con python3, usando solo le librerie di base
from urllib.request import urlretrieve
url = "http://snap.stanford.edu/data/"
filename = "cit-HepPh.txt.gz"
local_filename, headers = urlretrieve(url+filename, filename)
import gzip
with gzip.open('cit-HepPh.txt.gz', 'rb') as source:
with open('cit-HepPh_python.txt', 'wb') as destination:
destination.write(source.read())
in generale posso estrarre gli archivi in modo più facile, ma per qualche motivo a me oscuro il formato ".gz" puro non sembra essere supportato direttamente.
from shutil import unpack_archive
unpack_archive(filename)
dalla linea di comando posso usare i comandi wget ed gunzip
!wget http://snap.stanford.edu/data/cit-HepPh.txt.gz
!gunzip -k cit-HepPh.txt.gz
!md5sum cit-HepPh.txt
!md5sum cit-HepPh_python.txt
Per chi volesse scaricare il file degli abstract, non essendo in formato gz, è necessario usare il comando tar
invece di gunzip
.
!wget http://snap.stanford.edu/data/cit-HepTh-abstracts.tar.gz
# questo comando creerà diverse cartelle con dentro i singoli file degli abstract
!tar -xzf cit-HepTh-abstracts.tar.gz